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Abstract of EP0363233 

Speech is synthesised from elements such as 
diphones. At least the vocalized sounds of the 
sound elements are subjected to window analysis 
centred essentially on the start of each pulsed 
response of the vocal tract to the stimulation of 
the vocal cords, using a filtering window whose 
amplitude decreases to zero at the edges of the 
window and whose width is equal to at least twice 
the fundamental period of origin or twice the 
fundamental period of synthesis. The signals 
corresponding to each sound element which are 
obtained from the window analysis are replaced, 
the phase shift of the signals being equal to the 
fundamental period of synthesis, which is greater 
or less than the fundamental period of origin, 
depending on the prosodic data concerning the 
synthesis frequency. Synthesis is carried out by 
addition of the phase-shifted signals. 
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© Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde. 



© La synthese de parole est effectuee a partir 
d'elements tels que des diphones. On effectue, au 
moins sur les sons voises des elements sonores, 
une analyse par fenetrage sensiblement centree sur 
le debut de chaque reponse impulsionnelle du 
conduit vocal a I'excitation des cordes vocales a 
I'aide d'une fenetre de filtrage presentant une ampli- 
tude decroissant jusqu'a zero aux bords de la fene- 
tre de largeur au moins egale a deux fois la periode 
fondamentale d'origine ou deux fois la periode fon- 
damentale de synthese, on replace les signaux re- 
sultant du fenetrage correspondant a chaque ele- 
f- ment sonore, avec un decalage temporel de ceux-ci 
^egal a la periode fondamentale de synthese, infe- 
jyjrieure ou superieure a la periode fondamentale d'ori- 
(*>gine, suivant I'information prosodique concernant la 
C4 frequence de synthese, on effectue la synthese par 
jyjsommation des signaux ainsi decales. 
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Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde. 



L'invention concerne les precedes et dispositifs 
de synthese de la parole ; elle concerne, plus 
particulierement, la synthese a partir d'un diction- 
naire d'elements sonores par decoupage du texte a 
synthetiser en microtrames identifiers chacune par 
un numero d'ordre d'element sonore correspondant 
et par des parametres prosodiques (information de 
hauteur de son au debut et a la fin de I'element 
sonore et duree de I'element sonore), puis par 
adaptation et concatenation des elements sonores 
par une procedure d'addition-recouvrement. 

Les elements sonores stockes dans le diction- 
naire seront frequemment des diphones, c'est-a- 
dire des transitions entre phonemes, ce qui per- 
met, pour la langue frangaise, de se contenter d'un 
dictionnaire d'environ 1300 elements sonores ; on 
peut cependant utiliser des elements sonores diffe- 
rent^, par exemple des syllabes ou meme des 
mots. Les parametres prosodiques sont determines 
en fonction de criteres portant sur le contexte : la 
hauteur de son qui correspond a I'intonation, de- 
pend de I'emplacement de I'element sonore dans 
un mot et dans la phrase et la duree donnee a 
I'element sonore est fonction du rythme de la phra- 
se. 

II faut rappeler au passage que les methodes 
de synthese de la parole se subdivisent en deux 
groupes. Celles qui utilisent un modele mathemati- 
que du conduit vocal (synthese par prediction li- 
neaire, synthese a formants et synthese a transfor- 
med de Fourier rapide) font intervenir une decon- 
volution de la source et de la fonction de transfert 
du conduit vocal et exigent en general une cin- 
quantaine d'operations arithmetiques par echantil- 
lon numerique de la parole avant conversion 
numerique-analogique et restitution. 

Cette deconvolution source-conduit vocal per- 
met d'une part la modification de la valeur de la 
frequence fondamentale des sons voises, c'est- 
a-dire des sons qui ont une structure harmonique 
et sont provoques par vibration des cordes vocales, 
et d'autre part la compression des donnees repre- 
sentant le signal de parole. 

Celles qui appartiennent au second groupe de 
procedes utilisent la synthese dans le domains 
temporel par concatenation de formes d'onde. Cet- 
te solution a I'avantage de la flexibility d'emploi et 
de la possibility de reduire considerablement le 
nombre d'operations arithmetiques par echantillons. 
En contrepartie, elle ne permet pas de reduire le 
debit necessaire a la transmission autant que les 
methodes basees sur un modele mathematique. 
Mais cet inconvenient disparaft lorsqu'on recherche 
essentiellement une bonne qualite de restitution 
sans etre gene par la necessity de transmettre des 



donnees sur un canal etroit. 

La synthese de parole suivant la presente in- 
vention appartient au second groupe. Elle trouve 
une application particulierement importante dans le 

5 domaine de la transformation d'une chaTne ortho- 
graphique (constitute par exemple par le texte 
fourni par une imprimante) en un signal de parole, 
par exemple restitue directement ou emis sur une 
ligne telephonique normale. 

w On connait deja (Diphone synthesis using an 

overlap-add technique for speech waveforms 
concatenation, CHARPENTIER et al, ICASSP 1986, 
IEEE-IECEJ-ASJ International Conference on 
Acoustics Speech and Signal Processing, pages 2 

75 015-2 018)un procede de synthese de parole a 
partir d'elements sonores utilisant une technique 
d'addition-recouvrement de signaux a court-terme. 
Mais il s'agit de signaux a court-terme de synthe- 
se, avec normalisation du recouvrement des fene- 

20 tres de synthese, obtenus par un processus tres 
complexe : 

- analyse du signal original par fenetrage synchro- 
ne du voisement ; 

- transformed de Fourier du signal a court-terme ; 
25 - detection d'enveloppe ; 

- homothetie de I'axe frequentiel sur le spectre de 
la source ; 

- ponderation du spectre modifie de la source par 
I'enveloppe du signal d'origine ; 

30 - transformed de Fourier inverse. 

La presente invention vise notamment a fournir 
un procede relativement simple et permettant une 
reproduction acceptable de la parole. Elle part de 
I'hypothese qu'on peut considerer les sons voises 

35 comme la somme des reponses impulsionnelles 
d'un filtre, stationnaire durant plusieurs millisecon- 
des, (correspondant au conduit vocal) excite par 
une suite de Dirac, c'est-a-dire par un "peigne 
d'impulsions", de fagon synchrone de la frequence 

40 fondamentale de la source, c'est-a-dire des cordes 
vocales, ce qui se traduit dans le domaine spectral 
par un spectre harmonique, les harmoniques etant 
espaces de la frequence fondamentale et ponderes 
par une enveloppe presentant des maxima appeles 

45 formants, dependant de la fonction de transfert du 
conduit vocal. 

On a deja propose (Micro-phonemic method of 
speech synthesis, Lucaszewic et al, ICASSP 1987, 
IEEE, pages 1426-1429) d'effectuer une synthese 

so de parole ou la diminution de la frequence fonda- 
mentale des sons voises, lorsqu'elle est necessaire 
pour respecter des donnees prosodiques, est ef- 
fectuee par insertion de zeros, les microphonemes 
stockes devant alors obligatoirement correspondre 
a la hauteur maximale possible du son a restituer, 
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ou bien (brevet US 4 692 941) de diminuer de la 
meme maniere par insertion de zeros la frequence 
fondamentale. et d'augmenter celle-ci en diminuant 
la taille de chaque periode. Ces deux methodes 
introduisent sur le signal de parole des distorsions 
non negligeables lors de la modification de la fre- 
quence fondamentale. 

La presente invention vise a fournir un procede 
et un dispositif de synthese a concatenation de 
formes d'onde ne presentant pas la limitation ci- 
dessus et permettant de fournir une parole de 
bonne qualite, tout en ne necessitant qu'un faible 
volume de calculs arithmetiques. 

Dans ce but. I'invention propose notamment un 
procede caracterise en ce que : 

- on effectue, au moins sur les sons voises des 
elements sonores, un fenetrage centre sur le debut 
de chaque reponse impulsionnelle du conduit vocal 
a I'excitation des cordes vocales (ce debut pouvant 
etre memorise dans un dictionnaire) a I'aide d'une 
fenetre presentant un maximum pour ledit debut et 
une amplitude decroissant jusqu'a zero au bord de 
la fenetre, et 

- on replace les signaux fenetres correspondant a 
chaque element sonore avec un decalage temporel 
egal a la periode fondamentale de synthese a 
obtenir, inferieur ou superieur a la periode fonda- 
mentale d'origine suivant I'information prosodique 
de hauteur de ia frequence fondamentale et on 
effectue une sommation de ces signaux. 

Ces operations constituent la procedure de re- 
couvrement puis addition des formes d'onde ele- 
mentaires obtenues par fenetrage du signal de 
parole. 

En general, on utilisera des elements sonores 
constitues par des diphones. 

La largeur de la fenetre peut varier entre des 
valeurs inferieures et superieures a deux fois la 
periode d'origine. Dans I'exemple de mise en oeu- 
vre qui sera decrit plus loin, la largeur de la fenetre 
est choisie avantageusement egale a environ deux 
fois la periode d'origine en cas d'augmentation de 
la periode fondamentale ou environ deux fois la 
periode finale de synthese en cas d'augmentation 
de la frequence fondamentale, afin de compenser 
partiellement les modifications d'energie dues au 
changement de la frequence fondamentale, non 
compensees par une normalisation possible de 
I'energie, tenant compte de la contribution de cha- 
que fenetre a I'amplitude des echantillons du signal 
numerique de synthese : dans le cas d'une.diminu- 
tion de la periode fondamentale, la largeur de la 
fenetre sera done inferieure a deux fois la periode 
fondamentale d'origine. II est peu souhaitable de 
descendre au dessous de cette valeur. 

Du fait qu'il est possible de modifier la valeur 
de la frequence fondamentale dans les deux sens, 
les diphones sont memorises avec la frequence 



fondamentale naturelle du locuteur. 

Avec une fenetre de duree egale a deux perio- 
des fondamentales consecutives dans le cas voise, 
on obtient des formes d'onde elementaires dont le 

5 spectre represents sensiblement I'enveloppe du 
spectre du signal de parole ou spectre a court 
terme large bande -du fait que ce spectre est 
obtenu par convolution du spectre harmonique du 
signal de parole et de la reponse frequentielle de la 

10 fenetre, qui dans ce cas possede une largeur de 
bande superieure a la distance entre harmoniques- 
; la redistribution temporelle de ces formes d'onde 
elementaires donnera un signal possedant sensi- 
blement la meme enveloppe que le signal d'origine 

75 mais une distance entre harmoniques modifiee. 

Avec une fenetre de duree superieure a deux 
periodes fondamentales, on obtient des formes 
d'onde elementaires dont le spectre est encore 
harmonique, ou spectre a court terme bande etroi- 

20 te -du fait que cette fois-ci la reponse frequentielle 
de la fenetre est moins large que la distance entre 
harmoniques- ; la redistribution temporelle de ces 
formes d'onde elementaires donnera un signal pos- 
sedant, comme le signal de synthese precedent, 

25 sensiblement la meme enveloppe que le signal 
d'origine a ceci pres qu'on aura introduit des ter- 
mes de reverberation (signaux dont le spectre pos- 
sede une amplitude moindre, une phase differente, 
mais la meme forme que le spectre d'amplitude du 

30 signal d'origine), dont I'effet ne sera audible qu'au 
dela de largeurs de fenetre d'environ trojs perio- 
des, cet effet de reverberation ne degradant pas la 
qualite du signal de synthese lorsque son amplitu- 
de est faible. 

as On peut notamment utiliser une fenetre de 

Hanning, bien que d'autres formes de fenetre 
soient egalement acceptables. 

Le traitement defini ci-dessus peut egalement 
etre applique aux sons dits sourds ou non voises, 

40 pouvant etre represent.es par un signal dont la 
forme s'apparente a celle d'un bruit blanc, mais 
sans synchronisation des signaux fenetres : ceci a 
pour but d'homogeneiser le traitement sur les sons 
sourds et les sons voises, ce qui permet d'une part 

45 le lissage entre elements sonores (diphones) et 
entre phonemes sourds et voises, et d'autre part 
une modification du rythme. II se pose un proble- 
me a la jonction entre diphones. Une solution pour 
ecarter cette difficulty consiste a omettre I'extrac- 

50 tion de formes d'onde elementaires a partir des 
deux periodes fondamentales adjacentes de transi- 
tion entre diphones (dans le cas des sons sourds, 
les marques de voisement sont remplacees par 
des marques posees arbitrairement) : on pourra 

55 soit definir une troisieme fonction d'onde elemen- 
taire en calculant la moyenne des deux fonctions 
d'onde elementaires extraites de part et d'autre du 
diphone, soit utiliser la procedure d'addition-recou- 
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vrement directement sur ces deux fonctions d'onde 
elementaires. 

L'invention sera mieux comprise a la lecture de 
la description qui suit d'un mode particulier de 
mise en oeuvre de l'invention, donne a titre 
d'exemple non limitatif. La description se refere 
aux dessins qui Paccompagnent, dans lesquels : 

- la Figure 1 est un graphe destine a illustrer 
la synthese de la parole par concatenation de 
diphones et modification des parametres prosodi- 
ques dans le domaine temporel. conformement a 
l'invention ; 

- la Figure 2 est un schema synoptique 
montrant une constitution possible du dispositif de 
synthese, implante sur un calculateur hote ; 

- la Figure 3 montre, a titre d'exemple, com- 
ment on modifie les parametres prosodiques d'un 
signal naturel, dans le cas d'un phoneme particulier 

- les Figures 4A, 4B et 4C sont des graphi- 
ques destines a montrer des modifications spectra- 
les apportees a des signaux de synthese voises, la 
Figure 4A montrant le spectre d'origine, la Figure 
4B le spectre avec diminution de la frequence 
fondamentale et la Figure 4C le spectre avec aug- 
mentation de cette frequence ; 

- la Figure 5 est un graphique montrant un 
principe d'attenuation des discontinues entre di- 
phones ; 

- la Figure 6 est un schema montrant le 
fenetrage sur plus de deux periodes. 

La synthese d'un phoneme est effectuee a 
partir de deux diphones stockes dans un dictionnai- 
re, chaque phoneme etant compose de deux demi- 
diphones. Le son "e" dans "periode" par exemple 
sera obtenu a partir du second demi-diphone de 
"pai" et du premier demi-diphone de "air". 

Un module de traduction orthographique pho- 
netique et de calcul de la prosodie (qui ne fait pas 
partie de l'invention) foumit a un instant donne, des 
indications identifiant : 

- le phoneme a restituer, d'ordre P 

- le phoneme precedent, d'ordre P-1 

- le phoneme suivant, d'ordre P + 1 

et donnant la duree a affecter au phoneme P ainsi 
que les periodes au debut et a la fin (Figure 1). 

Une premiere operation d'analyse, qui n'est 
pas modifiee par l'invention, consiste a determiner, 
par decodage du nom des phonemes et des indi- 
cations prosodiques, les deux diphones retenus 
pour le phoneme a utiliser et le voisement. 

Tous les diphones disponibles (au nombre de 
1300 par exemple) sont memorises dans un dic- 
tionnaire 10 muni d'une table constituant le des- 
cripteur 12 et contenant I'adresse du debut de 
chaque diphone (en nombre de blocs de 256 oc- 
tets) la longueur du diphone et le milieu du dipho- 
ne (ces deux derniers parametres etant exprimes 



en nombre d'echantillons a partir du debut) et des 
marques de voisement reperant le debut de la 
reponse du conduit vocal a I'excitation des cordes 
vocales dans le cas d'un son voise (au nombre de 

5 35 par exemple). Des dictionnaires de diphones 
repondant a ces criteres sont disponibles par 
exemple aupres du Centre National d'Etudes des 
Telecommunications. 

Les diphones sont alors utilises dans un pro- 

w cessus d'analyse et de synthese schematise sur la 
Figure 1. On decrira ce processus en supposant 
qu'il est mis en oeuvre dans un dispositif de syn- 
these ayant la constitution montree en figure 2, 
destine a etre relie a un calculateur hote, tel que le 

is processeur central d'un ordinateur personnel. On 
supposera egalement que la frequence d'echantil- 
lonnage donnant la representation des diphones 
est de 16 kHz. 

Le dispositif de synthese (Figure 2) comporte 

20 alors une memoire vive principale 16 qui contient 
un micro-programme de calcul, le dictionnaire de 
diphones 10 (c'est-a-dire des formes d'onde repre- 
sentees par des echantillons) ranges dans I'ordre 
des adresses du descripteur, la table 12 constituant 

25 le descripteur de dictionnaire, et une fenetre de 
Hanning, echantillonnee par exemple sur 500 
points. La memoire vive 16 constitue egalement 
memoire de micro-trame et memoire de travail. 
Eile est reliee par un bus de donnees 18 et un bus 

30 d'adresses 20 a un acces 22 au calculateur hote. 

Chaque micro-trame emise pour restituer un 
phoneme (Figure 2) est constitute, pour chacun 
des deux phonemes P et P + 1 qui interviennent 

- du numero d'ordre du phoneme, 

35 - de la valeur de la periode au debut du phoneme, 
de la valeur de periode a la fin du phoneme, et 

- de la duree totale du phoneme pouvant etre 
remplacee par la duree du diphone pour le second 
phoneme. 

40 Le dispositif comprend encore, relies aux bus 

18 et 20, une unite de calcul locale 24 et un circuit 
d'aiguillage 26. Ce dernier permet de relier une 
memoire vive 28 servant de tampon de sortie soit 
vers le calculateur, soit vers un controleur 30 de 

45 convertisseur numerique/analogique 32 de sortie. 
Ce dernier attaque un filtre passe-bas 34, generale- 
ment limite a 8 kHz, qui alimente un amplificateur 
de parole 36. 

Le fonctionnement du dispositif est le suivant. 

so Le calculateur hote (non represented charge les 
micro-trames dans le tableau reserve en memoire 
16, par I'intermediaire de I'acces 22 et des bus 18 
et 20, puis il commande le debut de synthese a 
I'unite de calcul 24. Cette unite de calcul recherche 

55 le numero du phoneme courant P, du phoneme 
suivant P + 1 et du phoneme precedent P-1 dans le 
tableau de micro-trames, a I'aide d'un index me- 
morise dans la memoire de travail, initialised a 1. 
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Dans le cas du premier phoneme, I'unite de calcul 
vient chercher uniquement les numeros du phone- 
me courant et du phoneme suivant. Dans le cas du 
dernier phoneme, elle vient chercher le numero du 
phoneme precedent et celui du phoneme courant. 

Dans le cas general, un phoneme est constitue 
de deux demi-diphones ; I'adresse de chaque di- 
phone est recherchee par adressage matriciel dans 
le descripteur du dictionnaire par la formule suivan- 
te : 

numero du descripteur de diphone = 

numero du 1er phoneme + (numero du 2eme 

phoneme-1)'nombre de diphones 



Sons voises 

L'unite de calcul charge, en memoire de travail 
16, I'adresse du diphone, sa longueur, son milieu 
ainsi que les trente-cinq marques de voisement. 
Elle charge ensuite, dans un tableau descripteur du 
phoneme, les marques de voisement correspon- 
dent a la deuxieme partie du diphone. Puis elle 
recherche, dans le dictionnaire de formes d'onde, 
la deuxieme partie du diphone, qu'elle place dans 
un tableau representant le signal du phoneme 
d'anaiyse. Les marques conservees dans le ta- 
bleau descripteur du phoneme sont decrementees 
de la valeur du milieu du diphone. 

Cette operation est repet.ee pour la deuxieme 
partie du phoneme constitute par la premiere par- 
tie du deuxieme diphone. Les marques de voise- 
ment de la premiere partie du deuxieme diphone 
sont ajoutees aux marques de voisement du pho- 
neme et incrementees de la valeur du milieu du 
phoneme. 

Dans le cas des sons voises, l'unite de calcul, 
a partir des parametres prosodiques (duree, perio- 
de debut et periode fin du phoneme) determine 
alors le nombre de periodes necessaire a la duree 
du phoneme, suivant la formule : 
nombre de periodes = 2*duree du phoneme / 
(periode debut + periode fin) 

L'unite de calcul range en memoire le nombre 
de marques du phoneme naturel, egal au nombre 
de marques de voisement, puis determine le nom- 
bre de periodes a eliminer ou a ajouter en effec- 
tual la difference entre le nombre de periodes de 
synthese et le nombre de periodes d'anaiyse, diffe- 
rence qui est fixee par la modification de tonalite a 
introduire a partir de celle qui correspond au dic- 
tionnaire. 

Pour chaque periode de synthese retenue, 
I'unite de calcul determine ensuite la periode 
d'anaiyse retenue parmi les periodes du phoneme 
a partir des considerations suivantes : 
- la modification de la duree peut etre considered 
comme la mise en correspondance, par deforma- 



tion de I'axe des temps du signal de synthese, des 
n marques de voisement du signal d'anaiyse et 
des p marques du signal de synthese, n et p etant 
des entiers predetermines ; 

5 - a chacune des p marques du signal de synthese 
doit etre associee la marque la plus proche du 
signal d'anaiyse. 

La duplication ou, au contraire, Pelimination de 
periodes egalement reparties sur tout le phoneme 

w modifie la duree de celui-ci. 

II faut noter qu'on n'aura pas a extraire une 
forme d'onde elementaire a partir des deux perio- 
des adjacentes de transition entre diphones : I'ope- 
ration d'addition-recouvrement des fonctions ele- 

75 mentaires extraites des deux dernieres periodes du 
premier diphone et des deux premieres periodes 
du deuxieme diphone permet le lissage entre ces 
diphones comme le montre la figure 5. 

Pour chaque periode de synthese, I'unite de 

20 calcul determine le nombre de points a ajouter ou 
a supprimer a la periode d'anaiyse en effectuant la 
difference entre cette derniere et la periode de 
synthese. 

Comme on I'a indique plus haut, il est avanta- 
25 geux de choisir la largeur de la fenetre d'anaiyse 
de la fagon suivante, illustree en Figure 3 : 

- si la periode de synthese est inferieure a la 
periode d'anaiyse (lignes A et B de la Figure 3), la 
taille de la fenetre 38 est le double de la periode 

30 de synthese ; 

- dans le cas contraire, la taille de la fen§tre 40 est 
obtenue en multipliant par deux la plus faible des 
valeurs de la periode d'anaiyse courante et de la 
periode d'anaiyse precedents (lignes C et D). 

as L'unite de calcul determine un pas d'avance- 
ment dans la lecture des valeurs de la fenetre, 
tabulee par exemple sur 500 points, le pas etant 
alors egal a 500 divise par la taille de la fenetre 
precedemment calculee. Elle lit dans la memoire 

40 tampon de signal du phoneme d'anaiyse 28 les 
echantillons de la periode precedente et de la 
periode courante, les pondere par la valeur de la 
fen§tre de Hanning 38 ou 40 indexee par le nume- 
ro de I'echantillon courant multiplie par le pas 

45 d'avancement dans la fenetre tabulee et ajoute, au 
fur et a mesure, les valeurs calculees a la memoire 
tampon du signal de sortie indexe par la somme 
du compteur de I'echantillon courant de sortie et 
de I'index de recherche des echantillons du phone- 

50 me d'anaiyse. Le compteur de sortie courant est 
ensuite increments de la valeur de la periode de 
synthese. 

55 Sons sourds (non voises) 

Pour les phonemes sourds, le traitement est 
analogue au precedent, excepte que la valeur des 
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pseudo-periodes (distance entre deux marques de 
voisement) n'est jamais modifiee : I'elimination de 
pseudo-periodes au centre du phoneme diminue 
simplement la duree de celui-ci. 

On n'augmente pas la duree de phonemes 
sourds, excepts par addition de zeros au milieu 
des phonemes "silence". 

Le fenetrage s'effectue par periode pour nor- 
maliser la somme des valeurs des fenetres appli- 
quees au signal : 

- du debut de la periode precedente a la fin de la 
periode precedente, le pas d'avancement dans la 
lecture de la fenetre tabulee est (dans le cas d'une 
tabulation sur 500 points) egal a 500 divise par 
deux fois la duree de la periode precedente ; 

- du debut de la periode courante a la fin de la 
periode courante, le pas d'avancement dans la 
fenetre tabulee est egal a 500 divise par deux fois 
la duree de la periode courante plus un decalage 
constant de 250 points. 

A la fin du calcul du signal d'un phoneme de 
synthese, I'unite de calcul range la derniere perio- 
de du phoneme d'analyse et de synthese dans la 
memoire tampon 28 qui permet la transition entre 
phonemes. Le compteur de I'echantillon courant de 
sortie est decrements de la valeur de la derniere 
periode de synthese. 

Le signal ainsi genere est envoye, par blocs de 
2048 echantillons, dans un de deux espaces me- 
moire reserves a la communication entre I'unite de 
calcul et le controleur 30 du convertisseur 
numerique/analogique 32. Des que le premier bloc 
est charge dans la premiere zone tampon, le 
controleur 30 est active par I'unite de calcul et vide 
cette premiere zone tampon. Pendant ce temps, 
I'unite de calcul remplit une deuxieme zone tam- 
pon de 2048 echantillons. L'unite de calcul vient 
ensuite alternativement tester ces deux zones tam- 
pons grace a un drapeau pour y charger le signal 
numerique de synthese a la fin de chaque sequen- 
ce de synthese d'un phoneme. Le controleur 30, 
en fin de lecture de chaque zone tampon, position- 
ne le drapeau correspondant. En fin de synthese, 
le controleur vide la derniere zone tampon et posi- 
tionne un drapeau de fin de synthese que le cal- 
culates hote peut lire via I'acces de communica- 
tion 22. 

L'exemple de spectre de signal de parole voise 
d'analyse et de synthese illustre en Figures 4A-4C 
montre que les transformations temporelles du si- 
gnal numerique de parole n'affectent pas I'envelop- 
pe du signal de synthese, tout en modifiant la 
distance entre harmoniques, c'est-a-dire la fre- 
quence fondamentale du signal de parole. 

La complexity du calcul reste faible : le nombre 
d'operations par echantillon est en moyenne de 
deux multiplications et deux additions pour la pon- 
deration et la sommation des fonctions elementai- 



res fournies par I'analyse. 

L'invention est susceptible de nombreuses va- 
riantes de realisation et, en particulier, comme on 
I'a indique plus haut, une fenetre de largeur supe- 

s rieure a deux periodes, comme le montre la Figure 
6, eventuellement de taille fixe, peut donner des 
resultats acceptables. 

On peut aussi utiliser le procede de modifica- 
tion de la frequence fondamentale sur des signaux 

10 numeriques de parole en dehors de son application 
a la synthese par diphones. 



Revendications 

75 

1. Procede de synthese de parole a partir 
d'elements sonores (mots, syllabes, diphones ...) 
caracterise en ce que : 

- on effectue, au moins sur les sons voises des 
20 elements sonores, une analyse par fenetrage sensi- 

blement centre sur le debut de chaque reponse 
impulsionnelle du conduit vocal a I'excitation des 
cordes vocales a I'aide d'une fenetre de filtrage 
presentant une amplitude decroissant jusqu'a zero 
25 aux bords de la fenetre dont la largeur est au 
moins egale a deux fois la periode fondamentale 
d'origine ou deux fois la periode fondamentale de 
synthese, 

- on replace les signaux resultant du fenetrage 
30 correspondant a chaque element sonore, avec un 

decalage temporel de ceux-ci egal a la periode 
fondamentale de synthese, inferieure ou superieure 
a la periode fondamentale d'origine, suivant I'infor- 
mation prosodique concernant la frequence fonda- 
35 mentale de synthese, 

- on effectue la synthese par sommation des si- 
gnaux ainsi decales. 

2. Procede de synthese de parole selon la 
revendication 1, caracterise en ce qu'on realise un 

40 dictionnaire d'elements sonores, par exemple de 
diphones, on decoupe le texte a synthetiser en 
micro-trames identifies chacune par le numero de 
I'element sonore correspondant (diphone) et au 
moins une information prosodique, constitute au 

45 moins par la valeur de la frequence fondamentale 
en debut et en fin d'element et par la duree de 
I'element. 

3. Procede de synthese de parole selon I'une 
des revendications 1 et 2, caracterise en ce que la 

50 largeur de ia fenetre est egale a deux fois la 
periode d'origine en cas de diminution de la fre- 
quence fondamentale ou deux fois la periode finale 
de synthese en cas d'augmentation de la frequen- 
ce fondamentale. 

55 4. Procede de synthese de parole selon I'une 
des revendications 1 a 3, caracterise en ce que la 
fenetre est une fenetre de Hanning. 

5. Dispositif de synthese de parole par mise en 
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oeuvre du procede selon la revendication 1, carac- 
terise en ce qu'il comprend, relies a des bus 
(18,20) : une memoire vive principale (16) qui 
contient un micro-programme de calcul, un diction- 
naire de diphones (10) constitues de formes d'onde 5 
representees par des echantillons ranges dans I'or- 
dre des adresses d'un descripteur (12) de diction- 
naire, et une fenetre de Hanning echantillonnee, 
ladite memoire vive (16) constituant egalement me- 
moire de micro-trame et memoire de travail ; une w 
unite de calcul locale (24) et un circuit d'aiguillage 
(26) permettant de relier une memoire vive (28) 
servant de tampon de sortie soit vers I'unite de 
calcul, soit vers un controleur (30) de convertisseur 
numerique/analogique (32) de sortie attaquant un 75 
filtre passe-bas (34) qui alimente un amplificateur 
de parole (36). 
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Description 

L'invention concerne les precedes et dispositifs 
de synthese de la parole ; elle concerne, plus parti- 
culierement, la synthese a partir d'un dictionnaire 5 
d'elements sonores pardecoupage du texte a synthe- 
tiseren microtrames identifies chacune parun nu- 
mero d'ordre d'element sonore correspondant et par 
des parametres prosodlques (Information de hauteur 
de son au debut et a la fin de I'element sonore et du- 10 
ree de I'element sonore), puis par adaptation et 
concatenation des elements sonores par une proce- 
dure d'addition-recouvrement. 

Les elements sonores stockes dans le dictionnai- 
re serontfrequemment des diphones, c'est-a-dire des 15 
transitions entre phonemes, ce qui permet, pour la 
langue frangaise, de se contenter d'un dictionnaire 
d'environ 1300 elements sonores ; on peut cepen- 
dant utiliser des elements sonores differents, par 
exemple des syllabes ou meme des mots. Les para- 20 
metres prosodiques sont determines en fonction de 
criteres portant sur le contexte : la hauteur de son qui 
correspond a I'intonation, depend de I'emplacement 
de I'element sonore dans un mot et dans la phrase et 
la duree donnee a I'element sonore est fonction du 25 
rythme de la phrase. 

II faut rappeler au passage que les methodes de 
synthese de la parole se subdivisent en deux grou- 
pes. Celles qui utilisent un modele mathematique du 
conduit vocal (synthese par prediction lineaire, 30 
synthese a formants et synthese a transformee de 
Fourier rapide) font intervenir une deconvolution de la 
source et de la fonction de transfert du conduit vocal 
et exigent en general une cinquantaine d'operations 
arithmetiques par echantillon numerique de la parole 35 
avant conversion numerique-analogique et restitu- 
tion. 

Cette deconvolution source-conduit vocal per- 
met d'une part la modification de la valeur de la fre- 
quence fondamentale des sons voises, c'est-a-dire 40 
des sons qui ont une structure harmonique et sont 
provoques par vibration des cordes vocales, et d'au- 
tre part la compression des donnees representant le 
signal de parole. 

Celles qui appartiennent au second groupe de 45 
precedes utilisent la synthese dans le domaine tem- 
pore! par concatenation de formes d'onde. Cette so- 
lution a I'avantage de la flexibilite d'emploi et de la 
possibility de reduire considerablement le nombre 
d'operations arithmetiques par echantillons. En 50 
contrepartie, elle ne permet pas de reduire le debit 
necessaire a la transmission autant que les methodes 
basees sur un modele mathematique. Mais cet incon- 
venient disparait lorsqu'on recherche essentiellement 
une bonne qualite de restitution sans etre gene par 55 
la necessite de transmettre des donnees sur un canal 
etroit. 

La synthese de parole suivant la presente inven- 



tion appartient au second groupe. Elle trouve une ap- 
plication particulierement importante dans le domai- 
ne de la transformation d'une chaTne orthographique 
(constitute par exemple par le texte fourni par une 
imprimante) en un signal de parole, par exemple res- 
titue directement ou emis sur une ligne telephonique 
normale. 

On connait deja (Diphone synthesis using an 
overlap-add technique for speech waveforms conca- 
tenation, CHARPENTIER et al, ICASSP 1986, IEEE- 
IECEJ-ASJ International Conference on Acoustics 
Speech and Signal Processing, pages 2 015-2 
018)un precede de synthese de parole a partir d'ele- 
ments sonores utilisant une technique d'addition-re- 
couvrement de signaux a court-terme. Mais il s'agit 
de signaux a court-terme de synthese, avec normali- 
sation du recouvrement des fenetres de synthese, 
obtenus par un processus tres complexe : 

- analyse du signal original par fenetrage syn- 
chrone du voisement ; 

- transformee de Fourier du signal a court- 
terme ; 

- detection d'enveloppe ; 

- homothetie de I'axe frequentiel sur le spectre 
de la source ; 

- ponderation du spectre modifie de la source 
par I'enveloppe du signal d'origine ; 

- transformee de Fourier inverse. 

La presente invention vise notamment a fournir 
un precede relativement simple et permettant une re- 
production acceptable de la parole. Elle part de I'hy- 
pothese qu'on peut considerer les sons voises 
comme la somme des reponses impulsionnelles d'un 
filtre, stationnaire durant plusieurs millisecondes, 
(correspondant au conduit vocal) excite par une suite 
de Dirac, c'est-a-dire parun "peigne d'impulsions", de 
facon synchrone de la frequence fondamentale de la 
source, c'est-a-dire des cordes vocales, ce qui se tra- 
duit dans le domaine spectral par un spectre harmo- 
nique, les harmoniques etant espaces de la frequen- 
ce fondamentale et ponderes par une enveloppe pre- 
sentant des maxima appeles formants, dependant de 
la fonction de transfert du conduit vocal. 

On a deja propose (Micro-phonemic method of 
speech synthesis, Lucaszewic et al, ICASSP 1987, 
IEEE, pages 1426-1429) d'effectuerune synthese de 
parole oil la diminution de la frequence fondamentale 
des sons voises, lorsqu'elle est necessaire pour res- 
pecter des donnees prosodiques, est effectuee par 
insertion de zeros, les microphonemes stockes de- 
vant alors obligatoirement correspondre a la hauteur 
maximale possible du son a restituer, ou bien (brevet 
US 4 692 941) de diminuer de la meme maniere par 
insertion de zeros la frequence fondamentale, et 
d'augmenter celle-ci en diminuant la taille de chaque 
periode. Ces deux methodes introduisent sur le signal 
de parole des distorsions non negligeables lors de la 
modification de la frequence fondamentale. 
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La presents invention vise a fournir un procede et 
un dispositif de synthese a concatenation de formes 
d'onde ne presentant pas la limitation ci-dessus et 
permettant de fournir une parole de bonne qualite, 
tout en ne necessitant qu'un faible volume de calculs 5 
arithmetiques. 

Dans ce but, I'invention propose notamment un 
procede suivant la revendication 1. 

Ces operations constituent la procedure de re- 
couvrement puis addition des formes d'onde elemen- 10 
taires obtenues parfenetrage du signal de parole. 

En general, on utilisera des elements sonores 
constitues par des diphones. 

La largeur de la fenetre peut varier entre des va- 
leurs inferieures et superieures a deux fois la periode 15 
d'origine. Dans I'exemple de mise en oeuvre qui sera 
decrit plus loin, la largeur de la fenetre est choisie 
avantageusement egale a environ deux fois la perio- 
de d'origine en cas d'augmentation de la periode fon- 
damentale ou environ deux fois la periode finale de 20 
synthese en cas d'augmentation de la frequence fon- 
damentale, af in de compenser partiellement les mo- 
difications d'energie dues au changement de la fre- 
quence fondamentale, non compensees par une nor- 
malisation possible de I'energie, tenant compte de la 25 
contribution de chaque fenetre a I'amplitude des 
echantillons du signal numerique de synthese : dans 
le cas d'une diminution de la periode fondamentale, 
la largeur de la fenetre sera done inferieure a deux 
fois la periode fondamentale d'origine. II est peu sou- 30 
haitable de descendre au dessous de cette valeur. 

Du fait qu'il est possible de modifier la valeur de 
la frequence fondamentale dans les deux sens, les di- 
phones sont memorises avec la frequence fonda- 
mentale naturelle du locuteur. 35 

Avec une fenetre de duree egale a deux periodes 
fondamentales consecutives dans le cas voise, on 
obtient des formes d'onde elementaires dont le spec- 
tre represents sensiblement I'enveloppe du spectre 
du signal de parole ou spectre a court terme large 40 
bande -du fait que ce spectre est obtenu par convo- 
lution du spectre harmonique du signal de parole et 
de la reponse f requentielle de la fenetre, qui dans ce 
cas possede une largeurde bande superieure a la dis- 
tance entre harmoniques- ; la redistribution temporel- 45 
le de ces formes d'onde elementaires donnera un si- 
gnal possedant sensiblement la meme enveloppe 
que le signal d'origine mais une distance entre har- 
moniques modifiee. 

Avec une fenetre de duree superieure a deux pe- 50 
riodes fondamentales, on obtient des formes d'onde 
elementaires dont le spectre est encore harmonique, 
ou spectre a court terme bande etroite -du fait que 
cette fois-ci la reponse frequentielle de la fenetre est 
moins large que la distance entre harmoniques- ; la 55 
redistribution temporelle de ces formes d'onde ele- 
mentaires donnera un signal possedant, comme le si- 
gnal de synthese precedent, sensiblement la meme 



enveloppe que le signal d'origine a ceci pres qu'on 
aura introduit des termes de reverberation (signaux 
dont le spectre possede une amplitude moindre, une 
phase differente, mais la meme forme que le spectre 
d'amplitude du signal d'origine), dont I'effet ne sera 
audible qu'au dela de largeurs de fenetre d'environ 
trois periodes, cet effet de reverberation ne degra- 
dant pas la qualite du signal de synthese lorsque son 
amplitude est faible. 

On peut notamment utiliser une fenetre de Han- 
ning, bien que d'autres formes de fenetre soient ega- 
lement acceptables. 

Le traitement defini ci-dessus peut egalement 
etre applique aux sons dits sourds ou non voises, 
pouvant etre represent.es par un signal dont la forme 
s'apparente a celle d'un bruit blanc, mais sans syn- 
chronisation des signaux fenetres : ceci a pour but 
d'homogeneiser le traitement sur les sons sourds et 
les sons voises, ce qui permet d'une part le lissage 
entre elements sonores (diphones) et entre phone- 
mes sourds et voises, etd'autre part une modification 
du rythme. II se pose un probleme a la jonction entre 
diphones. Une solution pour ecarter cette difficulty 
consiste a omettre I'extraction de formes d'onde ele- 
mentaires a partir des deux periodes fondamentales 
adjacentes de transition entre diphones (dans le cas 
des sons sourds, les marques de voisement sont rem- 
placees par des marques posees arbitrairement) : on 
pourra soit def inir une troisieme fonction d'onde ele- 
mentaire en calculant la moyenne des deux fonctions 
d'onde elementaires extraites de part et d'autre du di- 
phone, soit utiliser la procedure d'addition-recouvre- 
ment directement sur ces deux fonctions d'onde ele- 
mentaires. 

L'invention sera mieux comprise a la lecture de la 
description qui suit d'un mode particulier de mise en 
oeuvre de l'invention, donne a titre d'exemple non li- 
mitatif. La description se refere aux dessins qui I'ac- 
compagnent, dans lesquels : 

- la Figure 1 est un graphe destine a illustrer la 
synthese de la parole par concatenation de di- 
phones et modification des parametres proso- 
diques dans le domaine temporel, conforme- 
ment a l'invention ; 

- la Figure 2 est un schema synoptique montrant 
une constitution possible du dispositif de 
synthese, implante sur un calculateur hote ; 

- la Figure 3 montre, a titre d'exemple, comment 
on modif ie les parametres prosodiques d'un si- 
gnal naturel, dans le cas d'un phoneme parti- 
culier ; 

- les Figures 4A, 4B et 4C sont des graphiques 
destines a montrerdes modifications spectra- 
les apportees a des signaux de synthese voi- 
ses, la Figure 4A montrant le spectre d'origine, 
la Figure 4B le spectre avec diminution de la 
frequence fondamentale et la Figure 4C le 
spectre avec augmentation de cette frequen- 
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ce ; 

- la Figure 5 est un graphique montrant un prin- 
cipe d'attenuation des discontinuit.es entre di- 
phones ; 

- la Figure 6 est un schema montrant le fenetra- 5 
ge sur plus de deux periodes. 

La synthese d'un phoneme est effectuee a partir 
de deux diphones stockes dans un dictionnaire, cha- 
que phoneme etant compose de deux demi- 
diphones. Le son "e" dans "periode" par exemple sera 10 
obtenu a partir du second demi-diphone de "pai" et du 
premier demi-diphone de "air". 

Un module de traduction orthographique phone- 
tique et de calcul de la prosodie (qui ne fait pas partie 
de I'invention) fournit a un instant donne, des indica- 15 
tions identif iant : 

- le phoneme a restituer, d'ordre P 

- le phoneme precedent, d'ordre P-1 

- le phoneme suivant, d'ordre P+1 

et donnant la duree a affecter au phoneme P ainsi que 20 
les periodes au debut et a la fin (Figure 1). 

Une premiere operation d'analyse, qui n'est pas 
modifiee par I'invention, consiste a determiner, par 
decodage du nom des phonemes et des indications 
prosodiques, les deux diphones retenus pour le pho- 25 
neme a utiliser et le voisement. 

Tous les diphones disponibles (au nombre de 
1300 par exemple) sont memorises dans un diction- 
naire 10 muni d'une table constituant le descripteur 
12 et contenant I'adresse du debut de chaque dipho- 30 
ne (en nombre de blocs de 256 octets) la longueur du 
diphone et le milieu du diphone (ces deux derniers 
parametres etant exprimes en nombre d'echantillons 
a partir du debut) et des marques de voisement repe- 
rant le debut de la reponse du conduit vocal a I'exci- 35 
tation des cordes vocales dans le cas d'un son voise 
(au nombre de 35 par exemple). Des dictionnaires de 
diphones repondant a ces criteres sont disponibles 
par exemple aupres du Centre National d'Etudes des 
Telecommunications. 40 

Les diphones sont alors utilises dans un proces- 
sus d'analyse et de synthese schematise sur la Figu- 
re 1. On decrira ce processus en supposant qu'il est 
mis en oeuvre dans un dispositif de synthese ayant 
la constitution montree en figure 2, destine a etre re- 45 
lie a un calculateur hote, tel que le processeur central 
d'un ordinateur personnel. On supposera egalement 
que la frequence d'echantillonnage donnant la repre- 
sentation des diphones est de 16 kHz. 

Le dispositif de synthese (Figure 2) comporte 50 
alors une memoire vive principale 16 qui contient un 
micro-programme de calcul, le dictionnaire de dipho- 
nes 10 (c'est-a-dire des formes d'onde representees 
par des echantillons) ranges dans I'ordre des adres- 
ses du descripteur, la table 12 constituant le descrip- 55 
teur de dictionnaire, et une fenetre de Hanning, 
echantillonnee par exemple sur 500 points. La me- 
moire vive 1 6 constitue egalement memoire de micro- 



trame et memoire de travail. Elle est reliee parun bus 
de donnees 18 et un bus d'adresses 20 a un acces 22 
au calculateur hote. 

Chaque micro-trame emise pour restituer un 
phoneme (Figure 2) est constitute, pour chacun des 
deux phonemes P et P+1 qui interviennent 

- du numero d'ordre du phoneme, 

- de la valeur de la periode au debut du phone- 
me, de la valeur de periode a la fin du phone- 
me, et 

- de la duree totale du phoneme pouvant etre 
remplacee par la duree du diphone pour le se- 
cond phoneme. 

Le dispositif comprend encore, relies aux bus 18 
et 20, une unite de calcul locale 24 et un circuit d'ai- 
guillage 26. Ce dernier permet de relier une memoire 
vive 28 servant de tampon de sortie soit vers le cal- 
culateur, soit vers un controleur 30 de convertisseur 
numerique/analogique 32 de sortie. Ce dernier atta- 
que un filtre passe-bas 34, generalement limite a 8 
kHz, qui alimente un amplif icateur de parole 36. 

Le fonctionnement du dispositif est le suivant. 

Le calculateur hote (non represents) charge les 
micro-trames dans le tableau reserve en memoire 1 6, 
par Pintermediaire de I'acces 22 et des bus 18 et 20, 
puis il commande le debut de synthese a I'unite de 
calcul 24. Cette unite de calcul recherche le numero 
du phoneme courantP, du phoneme suivant P+1 etdu 
phoneme precedent P-1 dans le tableau de micro-tra- 
mes, a I'aide d'un index memorise dans la memoire 
de travail, initial isee a 1 . Dans le cas du premier pho- 
neme, I'unite de calcul vient chercher uniquement les 
numeros du phoneme courant et du phoneme sui- 
vant. Dans le cas du dernier phoneme, elle vient cher- 
cher le numero du phoneme precedent et celui du 
phoneme courant. 

Dans le cas general, un phoneme est constitue 
de deux demi-diphones ; I'adresse de chaque dipho- 
ne est recherchee par adressage matriciel dans le 
descripteur du dictionnaire par la formule suivante : 

numero du descripteur de diphone = numero du 
1er phoneme + (numero du 2eme phoneme - 
1) * nombre de diphones 

Sons voises 

L'unite de calcul charge, en memoire de travail 
16, I'adresse du diphone, sa longueur, son milieu ain- 
si que les trente-cinq marques de voisement. Elle 
charge ensuite, dans un tableau descripteur du pho- 
neme, les marques de voisement correspondant a la 
deuxieme partie du diphone. Puis elle recherche, 
dans le dictionnaire de formes d'onde, la deuxieme 
partie du diphone, qu'elle place dans un tableau re- 
presentant le signal du phoneme d'analyse. Les mar- 
ques conservees dans le tableau descripteur du pho- 
neme sont decrementees de la valeur du milieu du di- 
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phone. 

Cette operation est repetee pour la deuxieme 
partie du phoneme constitute par la premiere partie 
du deuxieme diphone. Les marques de voisement de 
la premiere partie du deuxieme diphone sont ajoutees 
aux marques de voisement du phoneme et incremen- 
tees de la valeur du milieu du phoneme. 

Dans le cas des sons voises, l'unite de calcul, a 
partir des parametres prosodiques (duree, periode 
debut et periode fin du phoneme) determine alors le 
nombre de periodes necessaire a la duree du phone- 
me, suivant la formule : 

nombre de periodes = 2 * duree du phoneme / (pe- 
riode debut + periode fin) 

L'unite de calcul range en memoire le nombre de 
marques du phoneme naturel, egal au nombre de 
marques de voisement, puis determine le nombre de 
periodes a eliminer ou a ajouter en effectuant la dif- 
ference entre le nombre de periodes de synthese et 
le nombre de periodes d'analyse, difference qui est 
f ixee par la modification de tonal ite a introduire a par- 
tir de celle qui correspond au dictionnaire. 

Pour chaque periode de synthese retenue, l'unite 
de calcul determine ensuite la periode d'analyse re- 
tenue parmi les periodes du phoneme a partir des 
considerations suivantes : 

- la modification de la duree peut etre conside- 
ree comme la mise en correspondance, par de- 
formation de I'axe des temps du signal de 
synthese, des n marques de voisement du si- 
gnal d'analyse et des p marques du signal de 
synthese, n et p etant des entiers predetermi- 
nes ; 

- a chacune des p marques du signal de synthe- 
se doit etre associee la marque la plus proche 
du signal d'analyse. 

La duplication ou, au contraire, I'elimination de 
periodes egalement reparties sur tout le phoneme 
modifie la duree de celui-ci. 

II faut noter qu'on n'aura pas a extraire une forme 
d'onde elementaire a partir des deux periodes adja- 
centes de transition entre diphones : I'operation d'ad- 
dition-recouvrement des fonctions elementaires ex- 
traites des deux dernieres periodes du premierdipho- 
ne et des deux premieres periodes du deuxieme di- 
phone permet le lissage entre ces diphones comme 
le montre la figure 5. 

Pour chaque periode de synthese, l'unite de cal- 
cul determine le nombre de points a ajouter ou a sup- 
primer a la periode d'analyse en effectuant la diffe- 
rence entre cette derniere et la periode de synthese. 

Comme on I'a indique plus haut, il est avantageux 
de choisir la largeur de la fenetre d'analyse de la fa- 
con suivante, illustree en Figure 3 : 

- si la periode de synthese est inferieure a la pe- 
riode d'analyse (lignes A et B de la Figure 3), 
la taille de la fenetre 38 est le double de la pe- 
riode de synthese ; 



- dans le cas contraire, la taille de la fenetre 40 
est obtenue en multipliant par deux la plus fai- 
ble des valeurs de la periode d'analyse couran- 
te et de la periode d'analyse precedents (lignes 

5 C et D). 

L'unite de calcul determine un pas d'avancement 
dans la lecture des valeurs de la fenetre, tabulee par 
exemple sur 500 points, le pas etant alors egal a 500 
divise par la taille de la fenetre precedemment calcu- 

10 lee. Elle lit dans la memoire tampon de signal du pho- 
neme d'analyse 28 les echantillons de la periode pre- 
cedente et de la periode courante, les pondere par la 
valeur de la fenetre de Hanning 38 ou 40 indexee par 
le numero de I'echantillon courant multiplie par le pas 

15 d'avancement dans la fenetre tabulee et ajoute, au 
fur et a mesure, les valeurs calculees a la memoire 
tampon du signal de sortie indexe par la somme du 
compteur de I'echantillon courant de sortie et de I'in- 
dex de recherche des echantillons du phoneme 

20 d'analyse. Le compteur de sortie courant est ensuite 
incremente de la valeur de la periode de synthese. 

Sons sourds (non voises) 

25 Pour les phonemes sourds, le traitement est ana- 

logue au precedent, excepte que la valeur des pseu- 
do-periodes (distance entre deux marques de voise- 
ment) n'est jamais modif iee : I'elimination de pseudo- 
periodes au centre du phoneme diminue simplement 

30 la duree de celui-ci. 

On n'augmente pas la duree de phonemes 
sourds, excepte par addition de zeros au milieu des 
phonemes "silence". 

Le fenetrage s'effectue par periode pour norma- 

35 User la somme des valeurs des fenetres appliquees 
au signal : 

- du debut de la periode precedents a la fin de 
la periode precedente, le pas d'avancement 
dans la lecture de la fenetre tabulee est (dans 

40 le cas d'une tabulation sur 500 points) egal a 

500 divise par deux fois la duree de la periode 
precedente ; 

- du debut de la periode courante a la fin de la 
periode courante, le pas d'avancement dans la 

45 fenetre tabulee est egal a 500 divise par deux 

fois la duree de la periode courante plus un de- 
calage constant de 250 points. 
A la fin du calcul du signal d'un phoneme de 
synthese, l'unite de calcul range la derniere periode 
so du phoneme d'analyse et de synthese dans la memoi- 
re tampon 28 qui permet la transition entre phone- 
mes. Le compteur de I'echantillon courant de sortie 
est decrements de la valeur de la derniere periode de 
synthese. 

55 Le signal ainsi genere est envoye, par blocs de 

2048 echantillons, dans un de deux espaces memoi- 
re reserves a la communication entre l'unite de calcul 
et le controleur 30 du convertisseur numerique/ana- 
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logique 32. Des que le premier bloc est charge dans 
la premiere zone tampon, le controleur 30 est active 
par I'unite de calcul et vide cette premiere zone tam- 
pon. Pendant ce temps, I'unite de calcul remplit une 
deuxieme zone tampon de 2048 echantillons. L'unite 
de calcul vient ensuite alternativement tester ces 
deux zones tampons grace a un drapeau pour y char- 
ger le signal numerique de synthese a la fin de cha- 
que sequence de synthese d'un phoneme. Le contro- 
leur 30, en fin de lecture de chaque zone tampon, po- 
sitionne le drapeau correspondant. En fin de synthe- 
se, le controleur vide la derniere zone tampon et po- 
sitionne un drapeau de fin de synthese que le calcu- 
lates hote peut lire via I'acces de communication 22. 

L'exemple de spectre de signal de parole voise 
d'analyse et de synthese illustre en Figures 4A-4C 
montre que les transformations temporelles du signal 
numerique de parole n'affectent pas I'enveloppe du 
signal de synthese, tout en modifiant la distance en- 
tre harmoniques, c'est-a-dire la frequence fonda- 
mentale du signal de parole. 

La complexite du calcul reste faible : le nombre 
d'operations par echantillon est en moyenne de deux 
multiplications et deux additions pour la ponderation 
et la sommation des fonctions elementaires fournies 
par I'analyse. 

L'invention est susceptible de nombreuses va- 
riantes de realisation et, en particulier, comme on I'a 
indique plus haut, une fenStre de largeur superieure 
a deux periodes, comme le montre la Figure 6, even- 
tuellement de taille fixe, peut donner des resultats ac- 
ceptables. 

On peut aussi utiliser le procede de modification 
de la frequence fondamentale sur des signaux nume- 
riques de parole en dehors de son application a la 
synthese par diphones. 



Revendications 

1. Procede de synthese de parole a partir d'ele- 
ments sonores (mots, syllabes, diphones,...), sui- 
vant lequel : 

(a) on effectue, au moins sur les sons voises 
des elements sonores, une analyse en appli- 
quant une fenetre de f iltrage synchrone de la 
frequence fondamentale d'origine, sensible- 
ment centree sur le debut de chaque reponse 
impulsionnelle du conduit vocal a I'excitation 
des cordes vocales, presentant une amplitu- 
de decroissant jusqu'a zero aux bords de la fe- 
netre, dont la largeur est au moins egale a en- 
viron deux fois la periode fondamentale d'ori- 
gine ou environ deux fois la periode fonda- 
mentale de synthese, selon que la periode 
fondamentale de synthese est superieure ou 
inferieure a la periode fondamentale d'origine, 

(b) on replace les signaux resultant du fene- 



trage correspondant a chaque element sono- 
re, avec un decalage temporel de ceux-ci egal 
a la periode fondamentale de synthese, sui- 
vant une information prosodique concernant 
5 la frequence fondamentale de synthese, et 

(c) on effectue la synthese par sommation 
des signaux ainsi decales, 

caracterise en ce que le procede ne 
comporte pas de transformation spectrale des si- 
10 gnaux analyses, visant a modifier la frequence 

fondamentale de ces signaux, entre les etapes 
(a) et (b). 

2. Procede de synthese de parole selon la revendi- 
15 cation 1, caracterise en ce qu'on realise un dic- 

tionnaire d'elements sonores, parexemple de di- 
phones, on decoupe le texte a synthetiseren mi- 
cro-trames identifies chacune par le numero de 
I'element sonore correspondant (diphone) et au 
20 moins une information prosodique, constitute au 

moins parlavaleurde la frequence fondamentale 
en debut et en fin d'element et par la duree de 
I'element. 

25 3. Procede de synthese de parole selon I'une des 
revendications 1 et 2, caracterise en ce que la lar- 
geur de la fenetre est egale a deux fois la periode 
d'origine en cas de diminution de la frequence 
fondamentale ou deux fois la periode finale de 

30 synthese en cas d'augmentation de la frequence 
fondamentale. 

4. Procede de synthese de parole selon I'une des 
revendications 1 a 3, caracterise en ce que la fe- 

35 netre est une fenetre de Hanning. 

5. Dispositif de synthese de parole executant le pro- 
cede selon la revendication 1, caracterise en ce 
qu'il comprend, relies a des bus (1 8,20) : une me- 

40 moire vive principale (16) qui contient un micro- 

programme de calcul, un dictionnaire de dipho- 
nes (10) constitues de formes d'onde represen- 
tees par des echantillons ranges dans I'ordre des 
adresses d'un descripteur(12) de dictionnaire, et 

45 une fenetre de Hanning echantillonnee, ladite 

memoire vive (1 6) constituant egalement memoi- 
re de micro-trame et memoire de travail ; une uni- 
te de calcul locale (24) et un circuit d'aiguillage 
(26) permettant de relier une memoire vive (28) 

so servant de tampon de sortie soit vers I'unite de 

calcul, soit vers un controleur (30) de convertis- 
seur numerique/analogique (32) de sortie atta- 
quant un filtre passe-bas (34) qui alimente un 
amplif icateur de parole (36). 

55 
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Patentanspriiche 

1. Verfahren zur Sprachsynthese aus akustischen 
Elementen (Worten, Silben, Diphonen, ...) ge- 
mali welchem: 5 

(a) bei wenigstens den stimmhaften Lauten 
der akustischen Elemente eine Analyse unter 
Anwendung eines Fensters zum synchronen 
Filtern der Ursprungsgrundfrequenz durch- 
gefuhrt wird, welches im wesentlichen auf 10 
dem Anfang jeder Impulsantwort des Stimm- 
kanals bei Anregung der Stimmbander zen- 
triert ist, welche eine an den Randern des 
Fensters bis auf Null absinkende Amplitude 
aufweist, dessen Breite wenigstens ungefahr 15 
das Zweifache der Ursprungsgrundperiode 
oder ungefahr das Zweifache der Synthese- 
grundperiode ist, je nachdem, ob die Synthe- 
segrundperiode grolier oder kleiner als die 
Ursprungsgrundperiode ist, 20 

(b) die aus der Anwendung des Fensters re- 
sultierenden, jedem akustischen Element 
entsprechenden Signale mit einer zeitlichen 
Verschiebung derselben, welche gleich der 
Grundperiode der Synthese ist, gemali einer 25 
die Grundfrequenz der Synthese betreffen- 

den prosodischen Information wiederaufge- 
stellt werden und 

(c) die Synthese durch Summierung der der- 

art verschobenen Signale durchgef iihrt wird, 30 
dadurch gekennzeichnet, 
dali das Verfahren keine spektrale Transformati- 
on der analysierten Signale zwischen den Schrit- 
ten (a) und (b) umfalit, welche darauf abzielt, die 
Grundfrequenz dieser Signale zu modifizieren. 35 

2. Verfahren zur Sprachsynthese nach Anspruch 1 , 
dadurch gekennzeichnet, dali ein Lexikon von 
akustischen Elementen, z.B. von Diphonen, er- 
stellt wird, der zu synthetisierende Text in Mikro- 40 
ensembles aufgeteilt wird, welche jeweils durch 

die Nummer des entsprechenden akustischen 
Elements (Diphon) und wenigstens eine prosodi- 
sche, wenigstens von dem Wert der Grundfre- 
quenz am Anfang und am Ende des Elements 45 
und von der Dauerdes Elements gebildete Infor- 
mation identif iziert werden. 

3. Verfahren zur Sprachsynthese nach einem der 
Anspruche 1 und 2, dadurch gekennzeichnet, 50 
dali die Breite des Fensters das Zweifache der 
Ursprungsperiode im Fall der Verminderung der 
Grundfrequenz oder das Zweifache der Endpe- 
riode der Synthese im Fall der Verstarkung der 
Grundfrequenz ist. 55 

4. Verfahren zur Sprachsynthese nach einem der 
Anspruche 1 bis 3, dadurch gekennzeichnet, dali 



das Fensterein Hanning-Fenster ist. 

5. Sprachsynthesevorrichtung zur Durchfuhrung des 
Verfahrens nach Anspruch 1, dadurch gekenn- 
zeichnet, dali sie an Bussen (1 8, 20) angeschlos- 
sen umfalit: ein Haupt-RAM (16), welches ein 
Berechnungs-Mikroprogramm, ein Lexikonterbuch 
(1 0) von Diphonen, welche von Wellenformen ge- 
bildet sind, die von in der Reihenfolge der Adres- 
sen eines Deskriptors (12) des Lexikons abge- 
speicherten Abtastwerten dargestellt werden, 
und ein abgetastetes Hanning-Fenster umfalit, 
wobei das RAM (16) auch den Mikroensemble- 
speicher und den Arbeitsspeicher bildet; eine lo- 
kale Recheneinheit (24) und eine Verzweigungs- 
schaltung (26), welche es ermoglicht, ein als Aus- 
gangspuffer dienendes RAM (28) entweder mit 
der Recheneinheit zu verbinden oder mit einer 
Steuereinheit (30) eines Digital/Analog-Aus- 
gangswandlers (32), welcher in ein einen Sprach- 
verstarker (36) speisendes Tiefpalifilter (34) 
miindet. 



Claims 

1. Method of speech synthesis from sound ele- 
ments (words, syllabes, diphones,...), wherein: 

(a) analysis is carried out, at least on the 
voiced sounds of the sound elements, by win- 
dowing by means of a filtering window approx- 
imately centered on the beginning of each 
pulse response of the vocal tract to an excita- 
tion of the vocal cords, the window having an 
amplitude decreasing to zero at the edges of 
the window, whose width is at least equal to 
twice the original fundemental period or twice 
the fundamental synthesis period, 

(b) the signals resulting from windowing cor- 
responding to each sound element are re- 
placed with a time shift thereof equal to a fun- 
damental synthesis period, which is lesser 
than or greater than the original fundamental 
period, responsive to prosodic information re- 
lating to the fundamental sysnthesis frequen- 
cy, 

(c) synthesis is carried out by summing the 
thus shifted signals, 

characterized in that the method does not 
include a spectral transformation of the analysed 
signals, for modifying the fundamental frequency 
of said analysed signals, between steps (a) and 
(b). 

2. Method of speech synthesis according to claim 1 , 

characterized in that a dictionary of sound 
elements, for example diphones, is formed; the 
text to be synthesized is split into microframes 
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each identified by the serial number of the corre- 
sponding sound element (diphone) and at least 
one prosodic information, formed at least by the 
value of the fundamental frequency at the begin- 
ning and at the end of an element and by the dur- 
ation of the element. 

Method of speech synthesis according to any one 
of claims 1 and 2, 

characterized in that the width of the win- 
dow is equal to twice the original period in the 
case of reduction of the fundamental frequency 
or twice the final synthesis period in the case of 
increase of the fundamental frequency. 

Method of speech synthesis according to any one 
of claims 1-3, 

characterized in that the window is a Han- 
ning window. 

Device for speech synthesis carrying out the 
method of claim 1, 

characterized in that it comprises, con- 
nected to buses (18, 20): a main random access 
memory (16) which contains a computing micro- 
program, a dictionary of diphones (10) formed of 
waveforms represented by samples stored in the 
order of the addresses of a dictionary descriptor 
(12) and a sampled Hanning window, said ran- 
dom access memory (16) also forming a micro- 
frame memory and a working memory; a local 
computing unit (24) and a routing circuit (26) mak- 
ing it possible to connect a random access mem- 
ory (28) serving as output buffer either to the 
computing unit or to a controller (30) of an output 
digital/analog converter (32) driving a low pass 
filter (34) which feeds a speech amplifier (36). 
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